TITLE by 谢冰

这个报告探索了一个整洁的的数据集包含1599种红酒,以及11个关于关于酒的化学成分的变量。至少3名葡萄酒专家对每种酒的质量进行了评分,分数在0(非常差)和10(非常好)之间。我要探究的是固定酸度,挥发性酸度,柠檬酸,残糖,氯化物,游离二氧化硫,总二氧化硫,密度,pH值,硫酸盐,酒精对红酒质量评级的影响。

Univariate Plots Section

## [1] 1599   13
## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
这个数据集含有12个有用变量,其中X只是序号,共有1599个观察值。
##  fixed.acidity   volatile.acidity  citric.acid    residual.sugar  
##  Min.   : 4.60   Min.   :0.1200   Min.   :0.000   Min.   : 0.900  
##  1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090   1st Qu.: 1.900  
##  Median : 7.90   Median :0.5200   Median :0.260   Median : 2.200  
##  Mean   : 8.32   Mean   :0.5278   Mean   :0.271   Mean   : 2.539  
##  3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420   3rd Qu.: 2.600  
##  Max.   :15.90   Max.   :1.5800   Max.   :1.000   Max.   :15.500  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide
##  Min.   :0.01200   Min.   : 1.00       Min.   :  6.00      
##  1st Qu.:0.07000   1st Qu.: 7.00       1st Qu.: 22.00      
##  Median :0.07900   Median :14.00       Median : 38.00      
##  Mean   :0.08747   Mean   :15.87       Mean   : 46.47      
##  3rd Qu.:0.09000   3rd Qu.:21.00       3rd Qu.: 62.00      
##  Max.   :0.61100   Max.   :72.00       Max.   :289.00      
##     density             pH          sulphates         alcohol     
##  Min.   :0.9901   Min.   :2.740   Min.   :0.3300   Min.   : 8.40  
##  1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500   1st Qu.: 9.50  
##  Median :0.9968   Median :3.310   Median :0.6200   Median :10.20  
##  Mean   :0.9967   Mean   :3.311   Mean   :0.6581   Mean   :10.42  
##  3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300   3rd Qu.:11.10  
##  Max.   :1.0037   Max.   :4.010   Max.   :2.0000   Max.   :14.90  
##     quality     
##  Min.   :3.000  
##  1st Qu.:5.000  
##  Median :6.000  
##  Mean   :5.636  
##  3rd Qu.:6.000  
##  Max.   :8.000
这里我发现游离二氧化硫、总二氧化硫的最大值和第3分位数的差别很大,可能包含异常值。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.636   6.000   8.000
## 
##   3   4   5   6   7   8 
##  10  53 681 638 199  18
绝大部分红葡萄酒质量得了5、6、7这三个分数,其中质量为5分和6分的红葡萄酒差最多,少部分落在4分,但是还有绝少数落在3分和8分,虽然是按0~10给分,但是质量太低红葡萄酒当然没有市场,也就是为什么没有3分以下的缘故, 质量为8分的红葡萄酒也是极少的,我接下来想探索是哪个或者哪些化学成分影响了红葡萄酒的质量。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.60    7.10    7.90    8.32    9.20   15.90
## 
##  4.6  4.7  4.9    5  5.1  5.2  5.3  5.4  5.5  5.6  5.7  5.8  5.9    6  6.1 
##    1    1    1    6    4    6    4    5    1   14    2    4    9   13   16 
##  6.2  6.3  6.4  6.5  6.6  6.7  6.8  6.9    7  7.1  7.2  7.3  7.4  7.5  7.6 
##   20   14   25   17   37   28   46   38   50   57   67   44   44   52   46 
##  7.7  7.8  7.9    8  8.1  8.2  8.3  8.4  8.5  8.6  8.7  8.8  8.9    9  9.1 
##   49   53   42   42   26   45   40   26   19   27   24   34   33   26   29 
##  9.2  9.3  9.4  9.5  9.6  9.7  9.8  9.9   10 10.1 10.2 10.3 10.4 10.5 10.6 
##   16   22   17   14   17    9   15   26   23   10   19   11   21   12   14 
## 10.7 10.8 10.9   11 11.1 11.2 11.3 11.4 11.5 11.6 11.7 11.8 11.9   12 12.1 
##   10   10    8    3    9    5    7    5   13   12    3    3   12    7    1 
## 12.2 12.3 12.4 12.5 12.6 12.7 12.8 12.9   13 13.2 13.3 13.4 13.5 13.7 13.8 
##    4    5    4    7    4    4    5    2    3    3    3    1    1    2    1 
##   14 14.3   15 15.5 15.6 15.9 
##    1    1    2    2    2    1
调整binwidth后发现,固定酸度是以0.1为步长的一组离散的数值,我在想可能是测量精度有限。大部分红葡萄酒的固定酸度落在7~9g/dm^3之间。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3900  0.5200  0.5278  0.6400  1.5800
大部分的红酒的挥发性酸度都在0.39~0.64之间,极少数超过1g/dm^3。固定酸度和挥发性酸度在分布上看非常相似,说明这两个理化指标存在一定的相似性。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.090   0.260   0.271   0.420   1.000
## 
##    0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09  0.1 0.11 0.12 0.13 0.14 
##  132   33   50   30   29   20   24   22   33   30   35   15   27   18   21 
## 0.15 0.16 0.17 0.18 0.19  0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 
##   19    9   16   22   21   25   33   27   25   51   27   38   20   19   21 
##  0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39  0.4 0.41 0.42 0.43 0.44 
##   30   30   32   25   24   13   20   19   14   28   29   16   29   15   23 
## 0.45 0.46 0.47 0.48 0.49  0.5 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 
##   22   19   18   23   68   20   13   17   14   13   12    8    9    9    8 
##  0.6 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69  0.7 0.71 0.72 0.73 0.74 
##    9    2    1   10    9    7   14    2   11    4    2    1    1    3    4 
## 0.75 0.76 0.78 0.79    1 
##    1    3    1    1    1
有132种红酒的柠檬酸是0,可能和材料说明柠檬酸少量发现有关,也可能是数据缺失,其他种红酒中柠檬酸含量为0.02,0.24和0.49较多,较为突出,红酒柠檬酸大于0.55的很少。柠檬酸这项指标在不同品种红酒中呈现正偏态分布。

## 
##    1    2    3    4    5  5.5    6    7    8    9   10   11   12   13   14 
##    3    1   49   41  104    1  138   71   56   62   79   59   75   57   50 
##   15   16   17   18   19   20   21   22   23   24   25   26   27   28   29 
##   78   61   60   46   39   30   41   22   32   34   24   32   29   23   23 
##   30   31   32   33   34   35   36   37 37.5   38   39   40 40.5   41   42 
##   16   20   22   11   18   15   11    3    2    9    5    6    1    7    3 
##   43   45   46   47   48   50   51   52   53   54   55   57   66   68   72 
##    3    3    1    1    4    2    4    3    1    1    2    1    1    2    1

## 
##    6    7    8    9   10   11   12   13   14   15   16   17   18   19   20 
##    3    4   14   14   27   26   29   28   33   35   26   27   35   29   33 
##   21   22   23   24   25   26   27   28   29   30   31   32   33   34   35 
##   25   25   34   36   27   24   30   43   20   14   32   20   17   20   26 
##   36   37   38   39   40   41   42   43   44   45   46   47   48   49   50 
##   12   26   31   16   17   14   26   18   23   20   17   24   21   21   11 
##   51   52   53   54   55   56   57   58   59   60   61   62   63   64   65 
##   11   15   14   20   13   10    6   14    9   18    9    9   13   10   17 
##   66   67   68   69   70   71   72   73   74   75   76   77 77.5   78   79 
##    9   12   10    8    8    7   10    7    8    5    3    8    2    4    5 
##   80   81   82   83   84   85   86   87   88   89   90   91   92   93   94 
##    4    6    4    2    6    9   10    6   14    9    5    7    8    2    8 
##   95   96   98   99  100  101  102  103  104  105  106  108  109  110  111 
##    4    5    7    6    3    4    6    2    5    5    6    3    4    6    3 
##  112  113  114  115  116  119  120  121  122  124  125  126  127  128  129 
##    3    4    2    2    1    7    2    4    3    3    2    1    2    2    3 
##  130  131  133  134  135  136  139  140  141  142  143  144  145  147  148 
##    1    3    3    2    2    2    1    1    3    1    2    3    3    3    2 
##  149  151  152  153  155  160  165  278  289 
##    1    2    1    1    1    1    1    1    1

上面所展示的几个变量,残糖、氯化物、游离二氧化硫、总二氧化硫、硫酸盐不同程度出现了长尾,对其做对数转换再进行观察。并且虽然刚开始我觉得游离二氧化硫、总二氧化硫的最大值和第3分位数的差别很大,可能包含异常值,但是实际上只是出现了长尾现象,只是正偏态分布的表现,并非是异常值。

改变长尾数据,以上指标,残糖、氯化物、游离二氧化硫、总二氧化硫、硫酸盐均呈现正态分布或者近似正态分布。

密度和PH呈现正态分布,说明所有的样本该两项指标符合正常,没有明显的特征。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.20   10.42   11.10   14.90
## 
##              8.4              8.5              8.7              8.8 
##                2                1                2                2 
##                9             9.05              9.1              9.2 
##               30                1               23               72 
## 9.23333333333333             9.25              9.3              9.4 
##                1                1               59              103 
##              9.5             9.55 9.56666666666667              9.6 
##              139                2                1               59 
##              9.7              9.8              9.9             9.95 
##               54               78               49                1 
##               10 10.0333333333333             10.1             10.2 
##               67                2               47               46 
##             10.3             10.4             10.5            10.55 
##               33               41               67                2 
##             10.6             10.7            10.75             10.8 
##               28               27                1               42 
##             10.9               11 11.0666666666667             11.1 
##               49               59                1               27 
##             11.2             11.3             11.4             11.5 
##               36               32               32               30 
##             11.6             11.7             11.8             11.9 
##               15               23               29               20 
##            11.95               12             12.1             12.2 
##                1               21               13               12 
##             12.3             12.4             12.5             12.6 
##               12               13               21                6 
##             12.7             12.8             12.9               13 
##                9               17                9                6 
##             13.1             13.2             13.3             13.4 
##                2                1                3                3 
##             13.5 13.5666666666667             13.6               14 
##                1                1                4                7 
##             14.9 
##                1
通过分析,红酒的酒精含量百分比绝大多种都分布在9.4%和9.5%,并且往酒精含量增加的方向红酒分布呈现下降趋势。而且酒精含量占比总是断断续续分布在一定区间,某些区间是没有的。酒精这项指标在不同品种红酒中呈现正偏态分布。

Univariate Analysis

What is the structure of your dataset?

数据集中有1599种红酒,具有11个输入变量,包括客观测试(固定酸度,挥发性酸度,柠檬酸,残糖,氯化物,游离二氧化硫,总二氧化硫,密度,pH值,硫酸盐,酒精)和1个输出变量,基于感官数据(质量)。
(最差)—————>(最好)
质量:3,4,5,6,7,8

What is/are the main feature(s) of interest in your dataset?

数据集的主要特征是质量和酒精。可能酒精和其他变量的组合可以更好的预测质量。

What other features in the dataset do you think will help support your
investigation into your feature(s) of interest?

密度和PH值是正态分布,说明几乎所有的红酒在这两个指标上几乎是无差别的。而固定酸度,挥发性酸度,柠檬酸,残糖,氯化物,游离二氧化硫,总二氧化硫,硫酸盐这些变量不同程度出现长尾,正偏态分布,搭配酒精应该能更好的预测变量,有助于分析。

Of the features you investigated, were there any unusual distributions?

不寻常的分布:1,酒精含量占比总是断断续续分布在一定区间,某些区间是没有的。2,有132种红酒的柠檬酸是0,可能和材料说明柠檬酸少量发现有关,也可能是数据缺失。

Did you perform any operations on the data to tidy, adjust, or change the form of the data? If so, why did you do this?

我对质量、固定酸度、柠檬酸和酒精进行了分类统计,这样可以清晰看到每个数值对应的个数。同时,我还对残糖、氯化物、游离二氧化硫、二氧化硫总量、硫酸盐等几个具有长尾现象的数据进行了对数变换,通过变换,我们可以非常清晰的看到数据的分布及他们的共同特点。

Bivariate Plots Section

从数据图中可以看出,红酒质量和固定酸度,挥发性酸度,柠檬酸,硫酸盐,酒精的相关性较强,接下来将重点分析酒精质量和这些强相关性变量之间的关系,并分析理化性质之间的一些强相互关系。
1 分析红酒质量和这些强相关性变量之间的关系

红酒质量在567三个水平中的任一个时对应的固定酸度在6到12均有分布,平滑后呈缓慢上升状态。说明固定酸度和酒精质量相关性较弱。

从箱线图的分布和平滑直线可以看出,挥发性酸度越高,红酒质量越低,呈现比较明显的负相关关系。

从箱线图的分布和平滑直线可以看出,红酒质量越高,其柠檬酸集中分布在含量更高的地方,但是柠檬酸的含量高并无法保证酒精质量就一定高,柠檬酸是必要非充分因素。柠檬酸和红酒质量呈现比较明显的正相关关系。

从箱线图的分布和平滑直线可以看出,红酒质量越高,其硫酸盐集中分布在含量更高的地方,但是硫酸盐的含量高并无法保证酒精质量就一定高,硫酸盐是必要非充分因素。

从箱线图的分布和平滑直线可以看出,红酒质量越高,其酒精集中分布在含量更高的地方,但是酒精的含量高并无法保证酒精质量就一定高,酒精含量也是必要非充分因素。酒精含量和红酒质量呈现明显的正相关关系。
2 分析理化性质之间的一些强相互关系

## 
##  Pearson's product-moment correlation
## 
## data:  wineQualityReds$citric.acid and wineQualityReds$fixed.acidity
## t = 36.234, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6438839 0.6977493
## sample estimates:
##       cor 
## 0.6717034
柠檬酸和固定酸度呈现明显的正相关关系。

## 
##  Pearson's product-moment correlation
## 
## data:  wineQualityReds$citric.acid and wineQualityReds$volatile.acidity
## t = -26.489, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.5856550 -0.5174902
## sample estimates:
##        cor 
## -0.5524957
柠檬酸和挥发酸度呈现明显的负相关关系。柠檬酸是非挥发性酸。

## 
##  Pearson's product-moment correlation
## 
## data:  wineQualityReds$total.sulfur.dioxide and wineQualityReds$free.sulfur.dioxide
## t = 35.84, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6395786 0.6939740
## sample estimates:
##       cor 
## 0.6676665
游离二氧化硫和总二氧化硫之间呈明显的正相关关系。

Bivariate Analysis

Talk about some of the relationships you observed in this part of the
investigation. How did the feature(s) of interest vary with other features in
the dataset?

我感兴趣的变量是红酒的质量。通过分析红酒质量和这些强相关性变量之间的关系,我观察到和红酒质量呈比较明显的正相关关系的理化性质有柠檬酸、硫酸盐,酒精含量,和红酒质量呈比较明显的负相关关系的理化性质有挥发性酸度。并且这些理化性质都对红酒的质量的影响都是必要非充分的,比如,红酒质量越高,其柠檬酸集中分布在含量更高的地方,但是柠檬酸的含量高并无法保证酒精质量就一定高,柠檬酸是必要非充分因素。这也说明红酒质量是多个理化性质共同作用的结果。

Did you observe any interesting relationships between the other features
(not the main feature(s) of interest)?

关于其他特征(不是感兴趣的主要特征)之间的关系,我也探索了分析理化性质之间的一些强相互关系,有如下的观察结果,柠檬酸和固定酸度呈现明显的正相关关系。柠檬酸和挥发酸度呈现明显的负相关关系。柠檬酸是非挥发性酸。游离二氧化硫和总二氧化硫之间呈明显的正相关关系。

What was the strongest relationship you found?

主要特征和其他理化性质特征的关系中,我发现的最强的关系是酒精含量和红酒质量,呈最明显的正相关关系。非主要特征的关系中,我发现的最强的关系是柠檬酸和固定酸度呈现最明显的正相关关系。

Multivariate Plots Section

散点图可以看出,红酒质量为6、7、8的大都位于右上角,红酒质量为3、4、5的大都位于左下方,更仔细看,两个变量对红酒质量的影响程度不同,柠檬酸一定时,随着酒精含量增加,红酒质量提高了。酒精含量在较低的范围时,提高柠檬酸含量,红酒质量不变,酒精含量在较高的范围时,提高柠檬酸含量,红酒质量提高。

散点图可以看出,硫酸盐一定时,随着酒精含量增加,红酒质量提高了。酒精含量在较低的范围时,提高硫酸盐含量,红酒质量不变,酒精含量在较高的范围时,提高硫酸盐含量,红酒质量提高。

散点图可以看出,柠檬酸含量一定时,随着硫酸盐含量增加,红酒质量提高了。硫酸盐含量在较低的范围时,提高柠檬酸含量,红酒质量基本不变,硫酸盐含量在较高的范围时,提高柠檬酸含量,红酒质量有所提高。

散点图可以看出,挥发性酸度较低时,提高酒精含量,红酒质量提高,酒精含量较高时,降低挥发性酸度,红酒质量提高。
## 
## Calls:
## m1: lm(formula = I(quality) ~ I(alcohol), data = wineQualityReds)
## m2: lm(formula = I(quality) ~ I(alcohol) + I(sulphates), data = wineQualityReds)
## m3: lm(formula = I(quality) ~ I(alcohol) + I(sulphates) + I(citric.acid), 
##     data = wineQualityReds)
## m4: lm(formula = I(quality) ~ I(alcohol) + I(sulphates) + I(citric.acid) + 
##     I(volatile.acidity), data = wineQualityReds)
## m5: lm(formula = I(quality) ~ I(alcohol) + I(sulphates) + I(citric.acid) + 
##     I(volatile.acidity) + I(fixed.acidity), data = wineQualityReds)
## m6: lm(formula = I(quality) ~ I(alcohol) + I(sulphates) + I(citric.acid) + 
##     I(volatile.acidity) + I(fixed.acidity) + I(chlorides), data = wineQualityReds)
## m7: lm(formula = I(quality) ~ I(alcohol) + I(sulphates) + I(citric.acid) + 
##     I(volatile.acidity) + I(fixed.acidity) + I(chlorides) + I(total.sulfur.dioxide), 
##     data = wineQualityReds)
## 
## =============================================================================================================================
##                                 m1            m2            m3            m4            m5            m6            m7       
## -----------------------------------------------------------------------------------------------------------------------------
##   (Intercept)                  1.875***      1.375***      1.434***      2.646***      2.202***      2.363***      2.652***  
##                               (0.175)       (0.177)       (0.176)       (0.201)       (0.224)       (0.228)       (0.240)    
##   I(alcohol)                   0.361***      0.346***      0.338***      0.309***      0.320***      0.304***      0.288***  
##                               (0.017)       (0.016)       (0.016)       (0.016)       (0.016)       (0.017)       (0.017)    
##   I(sulphates)                               0.994***      0.814***      0.696***      0.701***      0.851***      0.888***  
##                                             (0.102)       (0.107)       (0.103)       (0.103)       (0.111)       (0.111)    
##   I(citric.acid)                                           0.513***     -0.079        -0.469***     -0.335*       -0.203     
##                                                           (0.093)       (0.104)       (0.137)       (0.141)       (0.145)    
##   I(volatile.acidity)                                                   -1.265***     -1.343***     -1.239***     -1.173***  
##                                                                         (0.113)       (0.113)       (0.117)       (0.118)    
##   I(fixed.acidity)                                                                     0.057***      0.050***      0.037**   
##                                                                                       (0.013)       (0.013)       (0.014)    
##   I(chlorides)                                                                                      -1.430***     -1.576***  
##                                                                                                     (0.408)       (0.408)    
##   I(total.sulfur.dioxide)                                                                                         -0.002***  
##                                                                                                                   (0.001)    
## -----------------------------------------------------------------------------------------------------------------------------
##   R-squared                    0.227         0.270         0.284         0.336         0.344         0.349         0.355     
##   adj. R-squared               0.226         0.269         0.282         0.334         0.342         0.347         0.352     
##   sigma                        0.710         0.690         0.684         0.659         0.655         0.653         0.650     
##   F                          468.267       294.988       210.501       201.777       167.023       142.224       124.875     
##   p                            0.000         0.000         0.000         0.000         0.000         0.000         0.000     
##   Log-likelihood           -1721.057     -1675.142     -1659.955     -1599.093     -1589.648     -1583.493     -1576.550     
##   Deviance                   805.870       760.894       746.576       691.852       683.728       678.484       672.617     
##   AIC                       3448.114      3358.284      3329.910      3210.186      3193.297      3182.986      3171.100     
##   BIC                       3464.245      3379.793      3356.795      3242.448      3230.937      3226.003      3219.494     
##   N                         1599          1599          1599          1599          1599          1599          1599         
## =============================================================================================================================
建立线性模型,可以看出红酒质量=2.652+0.288alcohol+0.888sulphates-0.203citric.acid-1.173volatile.acidity+0.037fixed.acidity-1.576chlorides-0.002total.sulfur.dioxide+误差

Multivariate Analysis

Talk about some of the relationships you observed in this part of the
investigation. Were there features that strengthened each other in terms of
looking at your feature(s) of interest?

酒精含量和柠檬酸,硫酸盐,三者有相互加强功能。

Were there any interesting or surprising interactions between features?

酒精含量对红酒质量起到决定性作用,柠檬酸,硫酸盐,挥发性酸度一定时,酒精含量提高,红酒质量明显提高。酒精含量较低时,提高柠檬酸或者硫酸盐含量,或者降低挥发性酸度,红酒的质量基本不变。酒精含量较高时,提高柠檬酸或者硫酸盐含量,或者降低挥发性酸度,红酒的质量有明显提升。

OPTIONAL: Did you create any models with your dataset? Discuss the
strengths and limitations of your model.

我使用酒精,硫酸盐,柠檬酸,挥发性酸度,固定酸度,氯化物,总二氧化硫为红酒质量建立了线性模型,此模型的优点是,综合考虑了多方面因素对红酒质量的影响,提供了特征(变量)与结果之间关系的强度和大小的估计。如果我们知道一种红酒对应的上述的理化性质,可以用来预测该种红酒的质量。此模型的缺点是,对数据做出了很强的假设,该模型的形式必须由使用者事先指定,不能很好地处理缺失数据,易受异常数据的干扰,需要一些统计知识来理解模型。而且,我们也看到,从柠檬酸在m3的线性模型中系数为正,而增加了挥发性酸度等其他变量后柠檬酸在线性模型中的系数变为负,柠檬酸和红酒质量的关系的转变,也是和原来的分析存在一定差距的。多变量之间的相互影响也比较难从此模型中得到理解。


Final Plots and Summary

Plot One

通过分析,红酒的酒精含量百分比绝大多种都分布在9.4%和9.5%,并且往酒精含量增加的方向红酒分布呈现下降趋势。而且酒精含量占比总是断断续续分布在一定区间,某些区间是没有的。酒精这项指标在不同品种红酒中呈现正偏态分布。

Plot Two

从箱线图的分布和平滑直线可以看出,红酒质量越高,其酒精集中分布在含量更高的地方,但是酒精的含量高并无法保证酒精质量就一定高,酒精含量也是必要非充分因素。酒精含量和红酒质量呈现明显的正相关关系。

Plot Three

散点图可以看出,红酒质量为6、7、8的大都位于右上角,红酒质量为3、4、5的大都位于左下方,更仔细看,两个变量对红酒质量的影响程度不同,柠檬酸一定时,随着酒精含量增加,红酒质量提高了。酒精含量在较低的范围时,提高柠檬酸含量,红酒质量不变,酒精含量在较高的范围时,提高柠檬酸含量,红酒质量提高。

Reflection

红酒数据集包括12个变量,1599种红酒的信息。我通过单变量分析,双变量分析,多变量分析寻找这11个理化性质和红酒质量之间的内在联系,进而能帮助我们分析和预测红酒质量。单变量分析阶段,我分析了数据的结构,对数据集进行一些初步探索,将所有连续变量用直方图表示,分类变量用柱状图表示,并且对一些长尾数据做了对数转化来更好的分析其分布及特征。在单变量分析时,我对数据集的了解不多,只能对每一个逐个进行分析,好在图片的解释性强,我便将我分析的重点投入到非正态分布的变量中。

双变量分析阶段,我一开始就先用ggpairs绘制散点图矩阵,并针对相关系数比较大的变量进行进一步的分析,对分类变量(质量)和理化性质变量(柠檬酸、硫酸盐,酒精含量)之间进行分析时,我采用了箱线图,并在箱线图基础上叠加了设置了抖动和透明度的散点图,并绘制了平滑直线,这一步令我对探究红酒质量和理化性质变量之间的关系进展顺利,通过箱线图,我观察到和红酒质量呈比较明显的正相关关系的理化性质有柠檬酸、硫酸盐,酒精含量,和红酒质量呈比较明显的负相关关系的理化性质有挥发性酸度。除了分析酒精质量和这些强相关性变量之间的关系,我还分析了理化性质之间的一些强相互关系。柠檬酸和固定酸度呈现明显的正相关关系。柠檬酸和挥发酸度呈现明显的负相关关系。柠檬酸是非挥发性酸。游离二氧化硫和总二氧化硫之间呈明显的正相关关系。

多变量分析阶段,我将我分析的重点放在红酒质量有强相关关系的理化性质变量之间是否对红酒质量的影响有相互加强的作用。发现了酒精含量对红酒质量起到决定性作用,柠檬酸,硫酸盐,挥发性酸度一定时,酒精含量提高,红酒质量明显提高。酒精含量较低时,提高柠檬酸或者硫酸盐含量,或者降低挥发性酸度,红酒的质量基本不变。酒精含量较高时,提高柠檬酸或者硫酸盐含量,或者降低挥发性酸度,红酒的质量有明显提升。并且,我我使用酒精,硫酸盐,柠檬酸,挥发性酸度,固定酸度,氯化物,总二氧化硫为红酒质量建立了线性模型,可用于分析各预测红酒质量。

在将来的工作中,我将进一步探究理化性质变量之间是否对红酒质量的影响有相互加强的作用,我希望可以一次性对更多变量之间进行探究,比如,我将探究每个质量等级的柠檬酸,硫酸盐,挥发性酸度三者的分布,这样能更好分析理化性质对红酒质量的影响。